lien de la base : https://www.kaggle.com/datasets/vanpatangan/divorce-prediction
Le mariage est souvent perçu comme l’union d’une union durable, symbolisant l’engagement et la stabilité dans la vie d’un couple. Pourtant, dans de nombreux contextes, les mariages connaissent des trajectoires variées : certains dure toute une vie, d’autre se terminent plus rapidement par un divorce. Ce phénomène est particulièrement intéressant à observer lorsque celui-ci repose sur un mariage arrangé, qui repose sur des dynamiques sociales et familiales différentes de celles d’un mariage romantique. Ces unions peuvent parfois révéler des différences profondes entre les partenaires ou faire émerger des schémas de relations complexes, voire toxiques.
Dans le cadre de cette étude, nous utilisons une base de données synthétique portant sur des mariages arrangés afin d’examiner la durée de ces unions et les facteurs susceptibles d’influencer leur stabilités. L’Analyse de Survie constitue ici un outil pertinent pour modéliser le temps écoulé entre le mariage et le divorce afin de mieux comprendre la distribution temporelle des ruptures.
Cette analyse est surtout pertinente d’un point de vue sociologique, permet de mieux comprendre les dynamiques relationnelles qui conduisent à la stabilité ou à la rupture d’un mariage. Étudier la durée d’un mariage et les facteurs associés au divorce éclaire notamment des notions essentielles comme la confiance, la communication, la gestion des conflits ou l’évolution des attentes au sein du couple. Comprendre ces mécanismes aide à mieux appréhender la manière dont les individus construisent ou parfois perdent un lien conjugal durable.
Elle présente également un intérêt social plus large : identifier les facteurs de fragilité permet de sensibiliser les couples, d’améliorer les dispositifs d’accompagnement et de renforcer la prévention. L’objectif n’est pas seulement d’anticiper une rupture, mais aussi de favoriser un environnement relationnel plus sain, où les partenaires disposent des ressources pour maintenir un mariage fondé sur la confiance, la solidarité et le respect mutuel.
La stabilité conjugale constitue un enjeu important sur les plans socia, démographique et psychologique. La durée d’un mariage influence notamment le bien-être des individus, le développement des enfants, mais aussi la structuration des familles et la cohésion sociale. À l’inverse, le divorce ou la séparation engendre des conséquences multiples : coûts émotionnels, réorganisation familiale, contraintes économiques ou fragilité psychologique.
Dans le cas des mariages arrangés, ces enjeux sont accentués par des dynamiques culturelles particulières, notamment le rôle de l’entourage, l’absence de choix conjugal initial ou la pression sociale. Étudier la durée de ces unions permet donc de mieux comprendre les mécanismes spécifiques qui favorisent la stabilité ou, au contraire, précipitent la rupture.
Quels facteurs influencent la durée d’un mariage arrangé et la probabilité de divorce ou de séparation au fil du temps ? Comment des caractéristiques individuelles, familiales ou relationnelles peuvent-elles modifier le risque de rupture ?
Quels facteurs influencent la durée de mariage ?
Notre base de données comporte 5000 observations pour 22 variables. Sur les 22 variables, nous retrouvons près de 10 variables quantitatives pour 12 qualitatives. De plus, notre base de données ne comporte aucune valeurs manquantes, ce qui réduit la complexité des prétraitements des données et permet de déterminer directement l’analyse exploratoire. Le tableau ci-dessous synthétise la présentation ainsi que les types et sous-type de variables.
| Nom_de_la_variable | Description | Type | Sous_type |
|---|---|---|---|
| age_at_marriage | Âge au mariage | Quantitative | Discrète |
| marriage_duration_years | Durée du mariage | Quantitative | Discrète |
| divorced | Divorce (oui/non) | Qualitative | Binaire |
| num_children | Nombre d’enfants | Quantitative | Discrète |
| education_level | Niveau d’éducation | Qualitative | Ordinale |
| employment_status | Statut professionnel | Qualitative | Nominale |
| combined_income | Revenu combiné | Quantitative | Continue |
| religious_compatibility | Compatibilité religieuse | Qualitative | Nominale |
| cultural_background_match | Correspondance culturelle | Qualitative | Binaire |
| communication_score | Score de communication | Quantitative | Continue |
| conflict_frequency | Fréquence des conflits | Quantitative | Discrète |
| conflict_resolution_style | Style de résolution de conflit | Qualitative | Nominale |
| mental_health_issues | Problèmes de santé mentale | Qualitative | Binaire |
| financial_stress_level | Niveau de stress financier | Quantitative | Continue |
| infidelity_occurred | Infidélité survenue | Qualitative | Binaire |
| counseling_attended | A suivi un counseling | Qualitative | Binaire |
| social_support | Soutien social | Quantitative | Continue |
| shared_hobbies_count | Nombre de hobbies partagés | Quantitative | Discrète |
| marriage_type | Type de mariage | Qualitative | Nominale |
| pre_marital_cohabitation | Cohabitation avant mariage | Qualitative | Binaire |
| domestic_violence_history | Historique de violence domestique | Qualitative | Binaire |
| trust_score | Score de confiance | Quantitative | Continue |
L’analyse de la variable marriage_duration_years montre
une distribution décroissante, avec la majorité des mariages ayant une
durée relativement courte. Les effectifs diminuent progressivement
lorsque la durée augmente. La durée minimale observée est de 1 ans, la
maximale de 40 ans, et la médiane est de 6 ans. On remarque également
quelques valeurs extrêmes entre 30 et 40 ans, qui sont isolées par
rapport à la majorité des observations. Ces outliers peuvent refléter
des cas particuliers de mariages très longs.
Notre base de données comporte une variable temporelle de durée de survie caractérisé par :
marriage_duration_years : Mesure la Durée du
mariage de l’individu.De plus, nous introduisons une variable \(a\) correspondant à la borne inférieure de
la variable de survie. Ici, pour marriage_duration_years,
on a \(a = 1\). Cette formalisation
permet d’unifier la notation et de clarifier les domaines de définition
dans les développements théoriques ultérieurs.
On pose \(X\) la variable aléatoire de survenue de l’évènement d’intérêt, donc le divorce. On note donc les différentes fonctions de survie et leurs interprétations par le tableau suivant :
| Fonction | Définition | Durée_du_mariage |
|---|---|---|
| \(S(t)\) | \(S(t) = \mathbb{P}(X \gt t) = e^{-H(t)} = e^{-\int_a^t h(u)\,du}\) | Probabilité que le mariage dure ≥ t |
| \(H(t)\) | \(H(t) = \int_a^t h(u)\,du = -\ln S(t)\) | Risque cumulé de divorce jusqu’à t |
| \(h(t)\) | \(h(t) = -\dfrac{S'(t)}{S(t)}\) | Risque instantané de divorce à t |
Nos données comportent une censure : certains individus n’ont pas
encore connu l’événement d’intérêt, c’est à dire qu’ils sont toujours
encore mariés. Cette information est déjà inscrite dans la base de
données via la variable divorced, qui
indique si l’individu est divorcé ou non que l’on note :
\[ \delta_i = \begin{cases} 1 & \text{si l'événement divorce est observé pour } i \\ 0 & \text{si l'observation n'est pas divorcé} \end{cases} \]
Soit \(X_i\) le temps de survie réel de l’individu \(i\) (durée jusqu’à l’événement d’intérêt, ici le divorce), et \(C_i\) la variable aléatoire du temps de censure, représentant le moment auquel l’individu quitte l’étude ou n’a pas encore subi l’événement.
La durée réellement observée pour chaque individu dépend du type de censure :
La censure à droite se produit lorsqu’un individu n’a pas
encore subi l’événement d’intérêt (ici le divorce) au moment de
sa dernière observation (\(X_i >
C_i\)).
Les principaux types de censure à droite sont :
La censure à gauche se produit lorsque l’événement a eu lieu
avant le début de l’observation, et on ne connaît que la borne
supérieure du temps de survie (\(X_i <
C_i\)).
Elle est beaucoup plus rare dans les études humaines et moins souvent
traitée dans la littérature.
Une censure par intervalle survient lorsqu’on sait seulement que l’événement s’est produit entre deux dates d’observation. Dans la pratique, elle est souvent convertie en censure à droite pour simplifier l’analyse.
Dans notre base de données, certains mariages n’ont pas
abouti à un divorce au moment de la fin de l’étude, et le temps
de suivi varie selon les individus.
On en déduit que les données présentent une censure à droite de
type III (aléatoire).
On suppose que cette censure est non informative,
c’est-à-dire indépendante de la probabilité de divorce, conformément aux
hypothèses classiques des modèles de survie.
Dans ce contexte, la durée réellement observée pour chaque mariage est donnée par :
\[ T = \min(X, C) \]
Estimateur empirique de la fonction de survie :
\[ \hat{S}(t) = \frac{1}{n} \sum_{i=1}^{n} \boldsymbol{1}_{\{t_i > t\}} \]
Cet estimateur correspond simplement à la proportion d’individus
encore mariés au temps \(t\).
Il suppose qu’il n’y a aucune donnée censurée,
c’est-à-dire que tous les individus ont eu l’événement observé.
| Méthode | Formule | Description |
|---|---|---|
| Estimateur empirique de survie (sans censure) | \(\hat{S}(t)=\frac{1}{n}\sum_{i=1}^{n}\mathbf{1}_{\{t_i\gt t\}}\) | Dans le cas sans censure, Kaplan–Meier coïncide avec l’estimateur empirique de la fonction de survie. |
| Variance (loi binomiale, cas sans censure) | \(\widehat{\text{Var}}[\hat{S}(t)] = \frac{\hat S(t) (1 - \hat S(t))}{n}\) | Variance estimée selon la loi binomiale, adaptée aux données entièrement observées. |
| Intervalle de confiance plain à 95 % | \(\text{IC}_{95\%}(t) = \hat S(t) \pm 1.96 \sqrt{\widehat{\text{Var}}[\hat S(t)]}\) | Intervalle de confiance classique basé sur la variance binomiale. |
L’estimateur de Kaplan-Meier découle de l’idée suivante : survivre après un temps \(t_n\) revient à être vivant juste avant \(t_n\) et ne pas subir l’événement à ce temps. Formellement, pour \(t_0 < t_1 < \dots < t_{n-1} < t_n\) :
La probabilité de survie jusqu’à \(t_n\) peut s’écrire en utilisant la règle de multiplication des probabilités :
\[ \mathbb{P}(X > t_n) = \mathbb{P}(X > t_1, X > t_2, \dots, X > t_n) \]
On introduit une récurrence : pour tout \(k \ge 1\),
\[ \mathbb{P}(X > t_k \mid X > t_{k-1}, \dots, X > t_1) = \mathbb{P}(X > t_k \mid X > t_{k-1}) \]
où l’égalité découle de l’indépendance conditionnelle induite par l’ordre croissant des temps.
Ainsi, par récurrence sur les indices \(k\) :
\[ \begin{aligned} \mathbb{P}(X > t_1, X > t_2, \dots, X > t_n) &= \mathbb{P}(X > t_1) \cdot \mathbb{P}(X > t_2 \mid X > t_1) \\ &\quad \cdot \mathbb{P}(X > t_3 \mid X > t_1, X > t_2) \cdots \mathbb{P}(X > t_n \mid X > t_1, \dots, X > t_{n-1}) \\ &= \mathbb{P}(X > t_1) \prod_{k=2}^{n} \mathbb{P}(X > t_k \mid X > t_{k-1}) \end{aligned} \]
On considère les temps d’événements distincts \(T_{(1)} < T_{(2)} < \dots <
T_{(j)}\) (décès ou divorce observés) rangés par ordre
croissant.
On définit \(T_{(0)} = 0\), la borne
inférieure du temps (par exemple \(a=1\) pour la durée de mariage).
Ainsi, la probabilité de survie jusqu’au temps \(T_{(j)}\) peut s’écrire comme un produit de probabilités conditionnelles :
\[ \begin{aligned} \mathbb{P}(X > T_{(j)}) &= \prod_{k=1}^{j} \mathbb{P}(X > T_{(k)} \mid X > T_{(k-1)}) \end{aligned} \]
Pour chaque temps d’événement \(T_{(k)}\), on s’intéresse à la probabilité conditionnelle de subir l’événement à ce temps, sachant que l’individu était encore à risque juste avant :
\[ \mathbb{P}(X \le T_{(k)} \mid X > T_{(k-1)}) \]
Cette quantité représente la probabilité qu’un individu qui a « survécu » jusqu’à \(T_{(k-1)}\) subisse l’événement à \(T_{(k)}\).
En pratique, on dispose des données observées :
On peut alors estimer cette probabilité conditionnelle par :
\[ \hat{\mathbb{P}}(X \le T_{(k)} \mid X > T_{(k-1)}) = \frac{d_k}{n_k} \]
La probabilité de survivre au temps \(T_{(k)}\) est le complémentaire :
\[ \hat{q}_k = \hat{\mathbb{P}}(X \ge T_{(k)} \mid X > T_{(k-1)}) = 1 - \hat{\mathbb{P}}(X \le T_{(k)} \mid X > T_{(k-1)}) = 1 - \frac{d_k}{n_k} \]
Enfin, en remplaçant les probabilités conditionnelles dans le produit de survie, on obtient l’estimateur de Kaplan-Meier (ou produit-limite) :
\[ \hat{S}(t) = \prod_{T_{(k)} \le t} \hat{q}_k = \prod_{T_{(k)} \le t} \left( 1 - \frac{d_k}{n_k} \right) \]
Ainsi, l’estimateur de Kaplan-Meier corrige naturellement le biais dû à la censure et fournit une estimation non paramétrique de la fonction de survie.
| Méthode | Formule | Description |
|---|---|---|
| Kaplan-Meier | \(\hat{S}(t) = \prod_{T_{(k)} \le t} \left( 1 - \dfrac{d_k}{n_k} \right)\) | Estimateur non paramétrique de la fonction de survie basé sur les événements observés et le nombre d’individus à risque. |
| Variance de Greenwood | \(\widehat{\text{Var}}\left[\hat{S}(t)\right] = \hat{S}(t)^2 \sum_{T_{(k)} \le t} \dfrac{d_k}{n_k (n_k - d_k)}\) | Variance estimée de Kaplan-Meier selon la formule de Greenwood. |
| Intervalle de confiance log à 95 % | \(\text{IC}_{95\%}(t) = \hat S(t) \pm 1.96 \sqrt{\widehat{\text{Var}}[\hat S(t)]}\) | Intervalle de confiance construit via une transformation logarithmique de S(t), qui est la méthode ‘plain’ de survfit(). |
L’estimateur de Nelson-Aalen permet d’estimer le risque cumulatif \(h(t)\) dans le cadre de données censurées.
On définit :
\(H(t) = \mathbb{P}(T > t) = \mathbb{P}(X > t, C > t) = \mathbb{P}(X > t)\mathbb{P}(C > t)= S(t) G(t)\) où \(G\) est la fonction de survie de la censure \(C\)
\(H_1(t) = \mathbb{P}(T > t, \delta = 1) = \mathbb{P}(X > t, C > X)\)
On peut écrire \(H_1(t)\) en fonction de la densité \(f(u)\) de \(X\) et de \(G(u)\) :
\[ \begin{aligned} H_1(t) &= \mathbb{P}(X > t,\, C > X) \\ &= \mathbb{E}\big[ \mathbf{1}_{\{X > t\}} \cdot \mathbf{1}_{\{C > X\}} \big] \\[6pt] &= \mathbb{E}\Big[ \mathbf{1}_{\{X > t\}} \, \mathbb{E}\big[\mathbf{1}_{\{C > X\}}\mid X\big] \Big] \\[6pt] &= \mathbb{E}\big[ \mathbf{1}_{\{X > t\}} \, \mathbb{P}(C > X \mid X) \big] \\[6pt] &= \mathbb{E}\big[ \mathbf{1}_{\{X > t\}} \, G(X^-) \big] \\[6pt] &= \displaystyle \int_{t}^{\infty} G(u^-) \, f(u)\,du \\[6pt] &= - \displaystyle \int_{t}^{\infty} G(u^-) \, dS(u) \end{aligned} \]
On obtient donc :
\[ dH_1(t) = G(t^{-})dS(t) \]
Et donc par le temps on obtient :
\[ \frac{dH_1(t)}{dt} = \frac{G(t^{-})dS(t)}{dt} \]
ce qui donne mathématiquement :
\[ H_1'(t) = G(t^{-})S'(t) \]
Ainsi on a :
\[ \begin{aligned} \hat{H}_{NA}(t) &= \displaystyle \int_{0}^{t} h(u) \, du \\[2mm] &= \displaystyle \int_{0}^{t} -\frac{S'(u)}{S(u)} \, du \\[2mm] &= \displaystyle \int_{0}^{t} -\frac{\frac{H_1(u)}{G(u^{-})}}{\frac{H(u)}{G(u)}} \, du \\[2mm] &= \displaystyle \int_{0}^{t} -\frac{H_1(u)}{H(u)}\frac{G(u)}{G(u^{-})} \, du \\[2mm] &= \displaystyle \int_{0}^{t} -\frac{H_1(u)}{H(u)} \, du \end{aligned} \]
Un estimateur naturel s’obtient en remplaçant les fonctions \(H\) et \(H_1\) par leurs équivalents empiriques (calculables car les variables \(T\) et \(\delta\) sont observées):
\[ \hat{H}(u) = \frac{1}{n} \sum_{i=1}^{n} \mathbf{1}_{\{T_i > u\}}, \quad \hat{H}_1(u) = \frac{1}{n} \sum_{i=1}^{n} \mathbf{1}_{\{T_i > u, \delta_i = 1\}} \]
L’estimateur de Nelson-Aalen est alors donné par :
\[ \hat{H}_{NA}(t) = \displaystyle \int_{0}^{t} - \frac{\displaystyle \sum_{i=1}^{n} \mathbf{1}_{\{T_i > u, \delta_i = 1\}}}{\displaystyle \sum_{i=1}^{n} \mathbf{1}_{\{T_i > u\}}} \, du \]
Comme \(T\) est à temps discret, l’intégrale devient une somme sur les temps d’événement distincts , et on définit alors pour chaque temps d’événement \(t_i\) :
\[ d_i = \sum_{j=1}^{n} \mathbf{1}_{\{T_j = t_i, \delta_j = 1\}}, \quad n_i = \sum_{j=1}^{n} \mathbf{1}_{\{T_j \ge t_i\}}. \]
Ce qui donne :
\[ \hat{H}_{NA}(t) = \sum_{t_i \le t} \frac{d_i}{n_i}. \]
Une autre façon de calculer la fonction de risque cumulée et de passer par l’estimateur de beslow.
Rappel : l’estimateur de Kaplan–Meier de la fonction de survie s’écrit, pour des temps d’événement distincts \(t_1<\dots<t_m\), \[ \hat{S}(t)=\prod_{t_i\le t}\left(1-\frac{d_i}{n_i}\right), \] où \(d_i\) est le nombre d’événements au temps \(t_i\) et \(n_i\) le nombre d’individus à risque juste avant \(t_i\).
En utilisant la relation \[ H(t)=-\log S(t), \] on obtient l’estimateur de Breslow du risque cumulé : \[ \hat{H}_{\text{Breslow}}(t) = -\log\big(\hat{S}(t)\big) = -\log\!\left(\prod_{t_i\le t}\left(1-\frac{d_i}{n_i}\right)\right) = -\sum_{t_i\le t} \log\!\left(1-\frac{d_i}{n_i}\right). \]
Pour des fractions \(d_i/n_i\) petites, on utilise l’approximation \(\log(1-x)\approx -x\) pour \(x\) proche de \(0\). Ainsi \[ \sum_{t_i\le t}\log\!\left(1-\frac{d_i}{n_i}\right) \approx \sum_{t_i\le t}\frac{d_i}{n_i}, \] Ce qui montre que l’estimateur de Breslow est proche (et asymptotiquement équivalent) à l’estimateur de Nelson–Aalen \(\hat{H}_{NA}(t)=\sum_{t_i\le t}\dfrac{d_i}{n_i}\) lorsque les sauts sont petits.
| Méthode | Formule | Variance | Description |
|---|---|---|---|
| Nelson-Aalen | \(\hat{H}_{NA}(t) = \sum_{t_k \le t} \dfrac{d_k}{n_k}\) | \(\text{Var}(\hat{H}_{NA}(t)) = \sum_{t_k \le t} \dfrac{d_k}{n_k^2}\) | Estimateur non paramétrique basé sur les événements observés et le nombre de sujets à risque. |
| Breslow | \(\hat{H}_{\text{Breslow}}(t) = - \sum_{t_k \le t} \log\left(1 - \dfrac{d_k}{n_k}\right)\) | \(\text{Var}(\hat{H}_{\text{Breslow}}(t)) = \sum_{t_k \le t} \dfrac{d_k}{n_k(n_k - d_k)}\) | Estimateur du risque cumulatif dérivé de \(H(t) = -\log(S(t))\) via l’estimateur de Kaplan-Meier. |